查看原文
其他

Nat Chem|化学机器学习的最佳实践:推荐的一套标准化指南

智药邦 智药邦 2022-06-15
2021年6月,来自哥伦比亚大学的Nongnuch Artrith等人在Nature Chemistry上合作发表评论,为化学机器学习训练和报告的标准化推荐了一套指南。
以下是全文内容。



摘要

基于机器学习的统计工具正在融入化学研究的工作流程。本文讨论了训练可靠、可重复和可再生模型的所需要素,并为机器学习报告推荐了一套指南。



前言

长期以来,从化学动力学中的艾林方程、描述化学稳定性和反应性的电负性尺度到连接分子结构和光谱的配体场方法,化学一直受益于使用模型来解释数据模式。此类模型通常采用可重现的封闭式方程形式,并且在数十年间仍然具有相关性。然而,化学规则通常仅限于特定类别的系统(如多面体硼烷的电子计数)和条件(如热力学平衡或稳态)。
在应用简单的分析表达式或计算复杂的数值模型这些限制之外,统计建模和分析提供了发现更普适性新关系的契机,正在成为化学领域的有效研究工具。然而,这些技术的从业者必须谨慎地遵循协议,以达到与既定方法类似的有效性和可重复性。本评论的目的是提出一个“最佳实践”标准,以确保统计学习开发模型的鲁棒性,以及观察效果的可重复性。希望相关的清单(图1)对作者、审稿人和读者有用,以指导机器学习模型的训练和报告的批判性评估,并提供一定程度的标准化。建议出版商可以在此清单的帮助下为机器学习手稿的提交制定指南和可重复性的规范。也希望众多科学家将带头开展这项运动,并主动提供机器学习清单来支撑论文。
图1 用于建议作者和审稿人报告和评估机器学习模型的清单



机器学习的发展和FAIR

统计机器学习技术在化学中的应用历史悠久。算法创新、改进数据的可用性和计算机能力的提高导致该领域备受关注。在许多精心收集、广泛可用的数据库基础上,拓展上一代高通量方法,使用监督学习分析回归(如反应率)和分类(如反应结果)问题揭示了分子和材料的化学结构和物理性质。值得注意的是,受益于基于高斯过程的原子间电势人工神经网络,分子建模能以标准第一性原理模拟技术所需的一小部分成本来重现结构转换。研究文献本身已成为使用自然语言处理挖掘潜在知识的宝贵资源,如近期用于提取无机晶体的合成配方的研究。除了数据挖掘,化学超空间的有效探索,包括逆向设计的解决方案,正通过应用自动编码器和生成模型变得容易处理。不幸的是,围绕数据驱动方法缺乏透明度导致一些科学家质疑结果的有效性,并认为该领域面临“可重复性危机”。化学正在向开放科学生态系统过渡,其中包括可重复的工作流程和机器可读格式的支持数据的发布。计算化学、主流方法的再现性(如密度泛函理论)已有研究。这和其它研究一起,提出了由在线数据库的可用性补充的开放标准。对于数据驱动的方法也必须这样做。化学机器学习代表了一个发展的领域,其中数据是一种重要的商品,但协议和标准尚未建立牢固。与任何科学报告一样,必须为机器学习研究提供足够的信息和数据,以便对其进行严格评估,使其可重复。大家必须共同努力,通过遵守 FAIR(findable, accessible, interoperable, reusable;可查找、可访问、可互操作、可重复)的科学数据管理和管理指导原则,显著提高机器学习模型和数据集的效率、有效性和可重复性。

下面概述了在构建和应用机器学习模型时要考虑的一组准则。这些应该有助于开发鲁棒的模型,为手稿提供清晰度,并建立统计工具所需的可信度,以获得化学领域的广泛接受度和实用性。



使用机器学习模型时的指南

1 数据来源

可用数据的质量、数量和多样性给任何衍生模型的准确性和通用性设定了上限。使用静态数据集(如来自已建立的化学数据库)实现从数据收集→模型训练的线性模型构建过程。相比之下,使用动态数据集(如来自指导实验或计算)实现迭代模型的构建过程,有时称为主动学习,即数据收集→模型训练→使用模型识别缺失数据→重复。在这两种情况下都必须小心选择数据。大多数数据来源都是有偏差的。偏差可能源于用于生成或获取数据的方法,如对较重元素更敏感的实验技术,或基于模拟的数据集,由于可用计算能力的限制,偏爱具有小晶体单元的材料。偏倚也可能产生于为特定目的或特定亚组编写的数据集的背景,正如最近探索无机合成中使用的试剂和反应条件的研究中。1948 年 11 月 3 日,芝加哥论坛报根据前一天美国总统大选的预测结果,宣布“杜威击败杜鲁门”。事实上,杜鲁门击败了杜威。错误的来源在于在大多数富裕(和共和党倾向)的公民拥有电话的时候使用基于电话的民意调查。可以想象关于化学数据集的类似采样错误,其中特定类别的“时尚”化合物,如金属二硫属化物或卤化物钙钛矿可能具有广泛的特征,但并不代表所有材料的多样性。识别和讨论数据集的来源和局限性很重要。偏差可能是有意的和可取的,例如,在从最相关的势能面区域构建原子间电势时,应讨论偏差或试图减轻其影响。数据库通常会随着时间的推移而发展、添加新数据(连续或批量发布)。出于可重复性的原因,这些数据库必须使用某种版本控制机制(如版本号、Git 版本控制或时间戳)作为元数据的一部分,并保持数据库先前版本的长期可用性。建议列出所有数据源,记录数据选择策略,并包括访问日期或版本号。如果数据受到保护或专有,则可以选择使用公共数据集中可重复性最低的示例。

2 数据清洗和整理

原始数据集通常包含错误、遗漏或异常值。数据库包含超过10%的错误数据是很常见的。事实上有研究发现,材料项目中14%的描述晶体弹性特性的数据是非物理的。清理步骤包括删除重复项、具有缺失值的条目、不连贯或非物理值或数据类型转换。数据管理也可能在原始数据集发布之前进行。这种数据清理还可以包括归一化和均质化,其中组合了多个来源。应注意来源之间可能差异的表征,以及同质化对衍生机器学习模型的影响。数据质量对模型性能的巨大影响和数据管理的重要性在化学信息学的密切相关领域中得到了强调。一项开创性研究显示了数据库的错误积累和化学结构的不正确处理如何导致机器学习模型预测能力的重大损失。当在公共数据库中发现错误时,作为研究过程的一部分,将这些错误传达给数据集维护者是很重要的。当真实信号与数据中的错误信号相关时,统计模型可能会“因错误原因而正确”。有个例子值得注意:训练了一个高精度模型来预测 Buchwald-Hartwig 交叉耦合的性能。研究结果提示,如果将数据集中的所有特征替换为随机数字字符串,则可以实现几乎相同的准确度。建议描述应用于原始数据的所有数据清理步骤,同时还提供对此过程删除和修改的数据范围的评估。由于无法手动检查大型数据库,因此集成数据管理管道的半自动化工作流的实施和共享至关重要。

3 数据表示

相同类型的化学信息可以用多种方式表示。表示(或编码)的选择在模型构建中至关重要,对于确定模型性能与选择机器学习方法同样重要。因此,在构建新模型时评估不同的表示至关重要。对于分子和扩展晶体的表示,已经开发了各种方法。一些捕获整个分子或晶体单元的全局特征,而另一些则代表局部特征,例如键合环境或片段,还有一些结合了这2个方面。可以使用利用先验知识(并且通常计算效率高)的手工描述符和通用学习描述符(无偏但通常计算要求高)。在化学中,虽然开发新方法有其优点,但建议与已建立的方法(在准确性和成本方面)进行比较,以便明确优势和劣势。

建议说明用于表示数据的方法并与标准特征集进行比较。建议借鉴已发表的化学表示方案的经验,以及在标准开放库中的参考,例如 RDKit  (https://www.rdkit.org)、DScribe (https://singroup.github.io/dscribe) 和 Matminer ( https://hackingmaterials.lbl.gov/matminer ),然后再尝试设计新的。


4 数据来源

从经典算法(如“支持向量机”)、集成方法(如“随机森林”)到涉及复杂神经网络架构的深度学习方法中,存在多种机器学习。在涉及化学问题的高精度任务中,基于图神经网络已被设计用于表示元素之间的结合相互作用。迁移学习技术使得可以从化学中常见的较小数据集训练高级模型,其中一个成功案例是基于高质量量子力学计算的小数据集重新训练通用原子间电势。然而,模型的复杂程度与给定问题的适用性无关:复杂度越高并不总是越好。事实上,模型的复杂性往往伴随着透明度和可解释性降低的代价。使用6层神经网络预测地震余震是网上激烈辩论的主题,也有正式的反驳证明只有2个自由参数的单个神经元(与原始模型的 13,451 个相反)可以提供相同水平的准确度。这个案例强调了基线的重要性,包括选择最频繁的类别(分类)、始终预测均值(回归)或将结果与没有外推能力的模型进行比较,例如 1-最近邻,它本质上是“看起来”在进行预测时向上最近的已知数据点。在提出传统技术的机器学习替代方案的情况下,与最先进技术的比较是另一个重要的基线测试和模型成功的一般衡量标准。

建议通过将基线与更简单——甚至微不足道的——模型以及当前最先进的模型进行比较来证明模型选择是合理的。应提供软件实现,以便可以使用新数据训练和测试模型。


5 模型训练和验证

训练一个鲁棒的模型必须平衡欠拟合和过拟合,这对模型参数(如神经网络中的权重)和超参数(如核参数、激活函数以及训练的选择和设置)都很重要。模型构建和选择涉及3个数据集。训练集用作模型的优化目标,以针对给定的超参数选择进行学习。一个独立的验证集用于在参数训练期间检测过拟合。模型超参数针对验证集的性能进行了优化。然后使用一组未见数据的测试集来评估最终模型的准确性,并再次检测过度拟合。这3个集合可以由原始数据集的随机拆分形成,或者首先将数据聚类为相似的类型,以确保实现不同的拆分。在估计训练精度时,通常检查和报告均方误差,但应确认精度在整个数据集上是一致的。还应报告训练过程的计算密集度,因为该方法对其他人的效果将取决于所需的数据和资源。例如,基于序列的生成模型是一种强大的分子从头设计方法,但使用循环神经网络训练它们目前只有在可以使用最先进的图形处理单元和数百万训练样本的情况下才可行。按照传统术语,验证集仅在训练期间使用,而独立测试集用于在应用之前评估训练模型。然而,在任意测试集上训练模型的准确性并不是评估性能的通用指标。测试集必须代表预期的应用范围。例如,在酸性条件下对溶剂化结构和能量进行训练的模型在类似数据上可能是准确的,但不能转移到基本条件。可能难以制定可靠的测试准确度度量。一项研究评估了机器学习模型的准确性,该模型使用随机交叉验证或通过多样性分裂策略聚类来预测超导钢疲劳强度或临界温度。在后一种情况下,模型精度大幅下降(性能降低2-4 倍)。这些模型对于引入新的和略有不同的数据非常脆弱,以至于失去任何预测能力。旨在测试外推(相对于内插)性能的验证方法正在开发中,通过排除整个类别的化合物(称为离开类选择或支架拆分)进行测试,或通过排除数据集中的极值测试。另一种行业标准方法是时间分割交叉验证,其中模型在特定日期可用的历史数据上进行训练,并在稍后生成的数据上进行测试,模拟前瞻性验证的过程。建议说明如何获得训练、验证和测试集,以及模型性能对训练方法参数的敏感性,如当使用不同的随机种子或数据集的排序重复训练时。应对与预期应用相关的数据进行验证。

6 代码和再现性

所有研究领域都存在可重复性危机。如果将彻底的不当行为和数据捏造的案例搁置一旁,选择性报告阳性结果的情况就会很普遍。数据挖掘(p-hacking) 是一种操纵技术,用于寻找具有统计学意义的结果,从而显著增加观察到的效果。“在结果已知后进行假设”(HARKing)涉及在研究报告中提出一个事后假设,就好像它实际上是一个先验假设。为了加强公众对科学的信任并提高已发表研究的可重复性,作者必须公开他们的数据和代码。这超越了纯粹的计算研究和倡议,如“暗反应项目”,以展示文献中从未报道过的失败实验的独特价值。前5个步骤需要研究人员做出许多选择来训练有意义的机器学习模型。虽然应该报告这些选择背后的原因,但这本身并不足以满足可重复性的负担。许多通常未在出版物的方法部分列出的变量可以在最终结果中发挥作用——问题出在超参数中。甚至软件版本也很重要,因为默认变量经常发生变化。对于大型开发,独立代码的报告,如在开源软件杂志,可能合适。需要报告运行报告工作流所需的辅助软件包和版本,这可以通过列出所有依赖项、导出软件环境(如conda 环境)或提供独立容器运行代码来实现。正制定支持可重复工作流程报告的举措,包括https://www.commonwl.org、https://www.researchobject.org和https://www.dlhub.org。

建议在保证长期存档的公共存储库中提供完整的代码或工作流(如使用永久 DOI 存档的在线存储库)。提供代码不仅可以让其他人完全复制研究,而且可以受到挑战、批评和进一步改进。至少应提供一个脚本或电子笔记本,其中包含重现报告结果的所有参数。



保持高标准

化学研究中的这些新尝试之所以成为可能,要归功于那些为基础技术、算法、代码和包做出贡献的人。该领域的发展得到了开源理念的支持,其中包括发布预印本和公开免费提供软件。未来的进展关键取决于这些研究人员能够证明他们贡献的影响。在所有报告中,请记住引用所采用的方法和包,以确保开发社区获得应有的认可。本评论中提出的建议来自与众多研究人员的互动后得出的的关于该主题的一致观点。虽然机器学习在化学领域的应用和发展潜力无限,但我们有责任建立和保持高标准的研究和报告。
参考资料
Artrith, N., Butler, K.T., Coudert, FX. et al. Best practices in machine learning for chemistry. Nat. Chem. 13, 505–508 (2021). https://doi.org/10.1038/s41557-021-00716-z
----------- End -----------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向




历史文章推荐    


NAT CHEM|人工智能的、增强智能的和自动化的化学
Science|让机器学习值得信赖
Drug Discov Today|用于从头药物设计的图神经网络GNN
岳石怡|人工智能+分子生成
Science China|用增强的联邦学习应对药物发现数据小和偏的困境
NPJ Digit Med|多种数字健康技术在去中心化的世界中赋能临床研究
BioRxiv|基于表型和化学结构预测化合物活性
Drug Discov Today|药物研发风险地图
Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
Drug Discov Today综述|分子从头设计和生成模型


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存